スマホで見る方はQRコードを読み込んでください
library(vcd)
# vcdというパッケージを用いる.
# もしインストールをしていなかった場合には`install.packages('vcd', dependencies = T)`を最初の一回だけ入力する必要がある.
tablee<-table(exdataset$CHI, exdataset$ARE)
assocstats(tablee) X^2 df P(> X^2)
Likelihood Ratio 5.1570 7 0.64082
Pearson 5.1408 7 0.64278
Phi-Coefficient : NA
Contingency Coeff.: 0.073
Cramer's V : 0.073
Pearson's Chi-squared test
data: tablee
X-squared = 5.1408, df = 7, p-value = 0.6428
レポートにまとめる時には,こんな書き方をします. > χ二乗検定を行った結果,居住地域と子供の有無は独立であることがわかった(χ=5.1408, df=7, p=.64).
Kanto Hokkaido Tohoku Chubu Kinki
NoChild 1.2252616 -1.0367594 1.0087797 -0.7017295 -0.2030909
Child -1.2252616 1.0367594 -1.0087797 0.7017295 0.2030909
Chugoku Shikoku Kyushu
NoChild -0.1513129 0.5961874 -1.2524729
Child 0.1513129 -0.5961874 1.2524729
χ二乗検定を行った結果,居住地域と子供の有無は関連が認められることがわかった(χ=100, df=7, p</05).さらに,残差分析を行ったところXXとYYにおいてZZという結果が示された(表AAA)
library(esquisse)
# インストールしていなければ,最初はinstall.packages("esquisse")をしておきましょう.
exdataset %>% esquisser()
library(DataExplorer)
# インストールしていなければ,最初はinstall.packages("DataExplorer")をしておきましょ
DataExplorer::create_report(exdataset)
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("../data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
一般線形モデルとは,統計学のうち,以下の数式(モデル式)を元に考えていくモデルです.
\[Y_i=\beta_1 X_1 +\beta_2 X_2+ \beta_3 X_3 + .... \alpha+\epsilon_i \]
さて,何か複雑そうなモデル式が出てきてしまいましたが,恐れることはありません.少し,簡単な形にしてあげましょう.そうすると,こんな感じに書くことが出来ます.
\[Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]
このモデル式,何だか見覚えのあるグラフとそっくりだと思います.中学校の時に“一次関数”というのを教わったのを覚えていますでしょうか?一次関数ではこんな数式を使いました.
\[Y=\beta X + \alpha\]
この数式を元に,グラフを書く,ということもやったかと思います.この時,\(\beta\) を傾き,\(\alpha\) を切片という呼び方をしていました.ちなみに,この数式で直線のグラフを書く時には,Xに0を代入した時のポイント(0, \(\alpha\))とXに1を代入したときのポイント(1, \(\beta + \alpha\))を結ぶ直線を引いてあげれば,グラフを作成することができます.
一般線形モデルの一番理解しやすい最初の考え方は,「実際に観察されたデータを元にして,一次関数のような直線を引いてあげよう!」という発想です.ただし,一次関数とちょっと違うのは「全ての点を通らなくてよい」ということです.
一次関数の場合はその直線上にある全ての点を通ることが前提となっていました.しかし,実際には直線であるので,直線上の2点を通れば,全てその条件を満たす直線を引くことが出来ます.
しかし,一般線形モデルの場合は常に全ての点を通るとは限りません.ベストは全ての点を通ることではありますが,実際にはデータには「誤差」というものが存在します.これは本来得られるべき結果と実際に得られた結果にずれがあることを示しています.
この誤差には大きく分けて以下の3種類あります.
測定誤差:実際に何かを計測する時に生じる誤差.大きく分けて以下の2種類がある.
統計誤差(標準誤差):母集団からある一部の集団を取り出す時,選ぶ集団によってどの程度数値が異なり得るのかを調べたもの.統計的に異なり得る範囲を推測することができる,
さて,少し本題に戻りましょう.ちょっと一般線形モデルのモデル式を考えたいと思います.
\[Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]
改めて,このモデル式を説明したいと思います.ここで,“\(Y_i\)”のことを“応答変数”,“\(X_1\)”のことを“説明変数”と呼びましょう.文字についている“\(_i\)”は各データによって異なる!という区別をするためについています.ちなみに,“\(Y_i\)”は他にも,被説明変数や非独立変数と呼ばれたりしますし,“\(X_1\)”は独立変数とも呼ばれたりします.
また,は係数,は切片と呼ばれます.そして,“\(\epsilon_i\)”が一番問題となる誤差です.この誤差は予測されたモデル式である“\(Y_i=\beta_1 X_1 + \alpha\)”からどれだけそのデータの値が離れているかを示しています.
と,言ってもなかなか理解し難いと思うので,一つ試しにやってみましょう.ここでは,「回帰分析」という方法と「t検定」という方法についてお話をしたいと思います.
| 検定名 | 応答変数 | 説明変数 |
|---|---|---|
| 回帰分析 | 数値データ | 数値データ(順序データ) |
| t検定 | 数値データ | 因子データ(ダミー変数,1, 0) |
回帰分析とは,応答変数が数値データであり,説明変数も数値データである場合に用いる方法です.例えば,「身長」と「体重」の間の相関関係について分析をする際にも用います.ここでは,今まで授業で使ってきた「主観的幸福度」と「生活満足度」の間に相関関係があるかどうか,以下の順番に沿って考えてみましょう.
この関係はモデル式で表すと,このような形になります.
\[(主観的幸福度)=\beta_1 (生活満足度) + \alpha+\epsilon_i \]
この時,切片であるは生活満足度が0であった時に対応する主観的幸福度を示しています.
何はともあれ,統計分析をするときには仮説を立ててあげる必要があります.仮説を立てるときには,「帰無仮説」と「対立仮説」の2つを考える必要があります. 対立仮説は「イイタイコト」,帰無仮説は「イイタイコトではないこと」でした.
ここで主観的幸福度と生活満足度の関係ですので,以下のように設定できます.
特に,以下では応答変数を主観的幸福度,説明変数を生活満足度とします.
散布図のプロットは他の機能から持ってきてもよいのですが,今回はRStudio上でクリックだけで入れられる方法を紹介します.
その上で,コードを貼り付けて出力することにしましょう.
最初に,ggplotguiというパッケージをインストールします. このインストールは今回だけです.
install.packages("ggplotgui", dependencies = T)
その後,読み込んであげましょう. ここのコードはConsole(コンソール)に直接打ち込みます.
library(ggplotgui)
ggplot_shiny()
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
## You can use the below code to generate the graph.
## Don't forget to replace the 'df' with the name
## of your dataframe
#====================kokokara====================#
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(df, aes(x = SUB_SAT, y = SUB_HAP)) +
geom_point()+
geom_smooth(se = TRUE, method = 'lm') +
theme_bw()
graph
#====================kokomade====================#
## この範囲は必ずチャンク内に入れる..
# If you want the plot to be interactive,
# you need the following package(s):
library("plotly")
ggplotly(graph)
## これを入れると,インタラクティブプロット(双方向性のあるプロット)ができる.
# If you would like to save your graph, you can use:
ggsave('my_graph.pdf', graph, width = 14, height = 14, units = 'cm')
## ここを入れると,pdfファイルとして保存できる.
どうもグラフを見ている限りだと,この2変数間には正の相関関係,すなわち「生活満足度が高ければ高いほど,主観的幸福度が高くなる」という傾向にはありそうです.
ただし,今はグラフを見ているだけなので,果たしてこの傾向が本当にあるのかどうかがわかりません.今度はこの傾向が科学的に認められるのかどうかを考えてみましょう.
さて,今度はRで分析してみましょう.ここでは,2行ほどのコードを書いてもらいます.
Call:
lm(formula = SUB_HAP ~ SUB_SAT, data = exdataset)
Residuals:
Min 1Q Median 3Q Max
-7.8918 -0.6503 -0.0814 0.7289 6.4015
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.59853 0.10176 15.71 <2e-16 ***
SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.285 on 961 degrees of freedom
Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
出力結果について説明しましょう.
## Call:
## lm(formula = SUB_HAP ~ SUB_SAT, data = dataset)
この行では,分析したモデル式について示しています.簡単に言うと,「生活満足度によって,主観的幸福度は説明できるかどうか試してます...」ということを示しています.
## Residuals:
## Min 1Q Median 3Q Max
## -7.8918 -0.6503 -0.0814 0.7289 6.4015
ここでは,モデル式からのズレ(\(\epsilon_i\))である誤差がどの程度あるのかを示しています.ここでは誤差の最小値,第1四分位点,中央値,第3四分位点,最大値を示しています.一般線形モデルではこの誤差が正規分布になっていることを仮定しています.
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.59853 0.10176 15.71 <2e-16 ***
## SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ここではその分析結果について示しています.第一に注目すべきはこの項目です. “Intercept”は切片を示しています.先程のモデル式でいうと,\(\alpha\) にあたる部分です.加えて,“SUB_SAT”は生活満足度です.先程のモデル式でいうと,\(\beta_1\)にあたる部分です.“Estimate”は推定値を示しています.“Intercept”と交わるところでは\(\alpha\)に入る具体的な数字を示しています.また,“SUB_SAT”と交わるところでは\(\beta_1\)に当てはまる数字が入ります.
したがって,この結果はモデル式で書くと,以下のように示すことが出来ます.
\[(主観的幸福度)=0.81036 ×(生活満足度) + 1.59853+\epsilon_i \]
このモデル式は生活満足度が1あがると,主観的幸福度が0.8106ポイント増加すること,そして生活満足度が0の人の主観的幸福度は1.59853であることが推定されています.
ここに出てくるt valueはt値を,Pr(>|t|)はp値を示しています.そして,最後のsign.if. codesでは,どのような基準で*をつけているかを説明しています.この場合,p値が1-0.1の場合は“.”,0.05-0.01の場合は“*”,0.01-0.001の場合は“**”,0.001-0の場合は“***”,としてつけている,ということが示されています.
統計学の基本的な考え方ではp値が0.05以下,すなわち5%以下である場合には対立仮説を採択することがお約束となっています...が,単純に5%以下であることによって対立仮説を採択することがあってはいけません.
それは以下の理由によります.
## Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
## F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
続いて,確認したいのはこの2行です.“Multiple R-squared”はR2乗(あーるにじょう)値を示しています.ただし,このR2値は決定係数と呼ばれており,回帰式の当てはまり具合を示しています.寄与率とも呼ばれて,この値が1に近ければ近いほどよく説明できているモデル式であると言われます.ただし,R2乗値はこのモデルに組み込まれる説明変数が増えれば増えるほど,より良くなっていきます.そうするといくらでも興味のない変数を入れて重回帰分析(後日説明します)....と,なると決して意味があるモデル式になるとは言えません.
そこで,たくさん変数を入れたことに対するペナルティを加えたのが“Adjusted R-squared”,調整済みR2乗値と呼ばれるものです.こちらを報告してあげると良いかと思います.
最後の“F-statistic”はF検定と呼ばれるものの結果です.2つの群の「標準偏差」が等しいかどうか,を示しているものであり,「等分散性の分析」に用いられているものです.この結果は,主観的幸福度と生活満足度では分散,すなわちばらつき方が異なっている,ということを示しています.
結果をまとめる時は,こんな感じにまとめておくと良いかと思います.
生活満足度1が改善すると,主観的幸福度が0.81改善することが,0.1%水準で示された.(一緒に表を見せると良い.)
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 1.599 | 0.1018 | 15.71 | 1.156e-49 |
| SUB_SAT | 0.8104 | 0.01711 | 47.37 | 1.337e-253 |
| (1) | |
| (Intercept) | 1.599 *** |
| (0.102) | |
| SUB_SAT | 0.810 *** |
| (0.017) | |
| N | 963 |
| R2 | 0.700 |
| logLik | -1607.061 |
| AIC | 3220.121 |
| *** p < 0.001; ** p < 0.01; * p < 0.05. | |
library(stargazer)
stargazer(hapsat_model, type = "html", align=TRUE, title = "分析結果", out = "hapsatmodel.xls")
<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">SUB_SAT</td><td>0.810<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.017)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>1.599<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.102)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.700</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.700</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>1.285 (df = 961)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>2,244.149<sup>***</sup> (df = 1; 961)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
\[t値=(期待値)-(平均値)/(標準誤差)\]
t値はこんな数式から算出されます.
標準誤差は(標準偏差)/(データ数の平方根)によって計算できることを思い出しておいて下さい.
t値は分子が大きければ,平均値との差が大きいことを示しており,分母が大きければ,標準偏差(分散)が小さく,データ数が十分にあることを示しています.このt値が大きければ大きいほど,帰無仮説を棄却して対立仮説を採択できることを示しています.
一方,p値は帰無仮説が成立していることを前提として,0.05,すなわち5%未満であれば,帰無仮説を棄却するための基準となります.実際に確率的に示すことによって,得られた差異がどの程度珍しいのか,ということを示しています.例えば,p値が0.03,すなわち3%であれば,帰無仮説が正しいとした時に今得られた結果は3%でしか観察できないような珍しいことが起こっていることを示しています.こんなに珍しいことが起こったのは,その帰無仮説が正しくないからであり対立仮説を選ぼう!という論理のもとに対立仮説を採択することになります.
ここでは,t値とp値の計算方法については別書に譲ることとして,ざっくりとした理解で先に行きましょう.
# モデルを作る
オブジェクト <- lm(応答変数 ~ 説明変数, data = データセットの名前)
# 結果を出力する
summary(オブジェクト)
"SUB_SLP"は睡眠満足度として,以下の質問項目を尋ねたものである.
あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか?
これについて,以下の2つの分析を実施せよ.
各自でコード表を読み,好きなデータ(数値データ)2種類を選んだ上で,それぞれと主観的幸福度について回帰分析を実施し,
"CHI"は子どもの有無を尋ねる項目である.
あなたはお子さんがいらっしゃいますか?
これについて,以下の3つの分析を実施せよ.また,それぞれについてグラフも作成せよ.
* 子の有無による主観的幸福度の差を分析せよ.
* 子の有無による生活満足度の差を分析せよ.
* 子の有無による睡眠満足度の差を分析せよ.
各自でコード表を読み,好きなデータ(1,0の因子データ)を選んだ上で,それぞれと主観的幸福度について回帰分析を実施し,それぞれについてjpeg形式のグラフおよびExcel形式のファイルを出力せよ.
ダウンロードはコチラから
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |
---
title: "データ解析論I第8講"
output:
flexdashboard::flex_dashboard:
vertical-layout: scroll
orientation: columns
source_code: embed
theme: journal
toc: true
toc_depth: 2
fig_mobile: true
highlight: pygments
css: styles_customized.css
---
```{r setup, include=FALSE}
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
# 講義資料
## メイン資料 {.tabset .tabset-fade}
### 今日の資料はコチラから.
スマホで見る方は**QRコード**を読み込んでください
### 前回の復習
* 連関係数からやりましょう.
#### 連関係数を出力しよう
* 連関係数:クラメール連関係数V
- 下限が0,上限が1で完全な連関に近づくにつれて1に近い値を取る.
```{r echo=TRUE}
library(vcd)
# vcdというパッケージを用いる.
# もしインストールをしていなかった場合には`install.packages('vcd', dependencies = T)`を最初の一回だけ入力する必要がある.
tablee<-table(exdataset$CHI, exdataset$ARE)
assocstats(tablee)
```
* 今回の場合は当たり前ですが,地域と子供の有無に連関は認められません.
#### χ二乗検定を行いましょう.
* 対立仮説:居住地域と子供の有無は独立ではない(関連がある)
* 帰無仮説:居住地域と子供の有無は独立である(関連があるとは言えない)
```{r echo=T}
chitest.tablee<-chisq.test(tablee)
chitest.tablee
```
* 検定の結果,p値が.05以上なので,対立仮説を採択できず,帰無仮説を採択する.
* レポートにまとめる時には,こんな書き方をします.
> χ二乗検定を行った結果,居住地域と子供の有無は独立であることがわかった(χ=5.1408, df=7, p=.64).
* もし,χ二乗検定でp値が.05以下であった場合,残差分析を行います.
- どのセルで有意な逸脱が生じたのかを検討する.
- 標準化残差が1.96以上であれば,5%水準で有意な逸脱があったと評価する.
```{r echo=T}
chitest.tablee$stdres
```
* レポートにまとめる時には,こんな書き方をします.
- ここでは居住地域と子供の有無に関連があったことを前提とした妄想文を例とします.
> χ二乗検定を行った結果,居住地域と子供の有無は関連が認められることがわかった(χ=100, df=7, p% rpivotTable()
```
* ただし,再現可能性の観点から課題が残る・・・
- コードを出力してくれない.
- 参考までに使ってみると良いでしょう.
#### いろいろグラフを作ってみよう
```{}
library(esquisse)
# インストールしていなければ,最初はinstall.packages("esquisse")をしておきましょう.
exdataset %>% esquisser()
```
```{}
library(DataExplorer)
# インストールしていなければ,最初はinstall.packages("DataExplorer")をしておきましょ
DataExplorer::create_report(exdataset)
```
### 今日のタスク
#### 質問項目の作成
* *[こちらのリスト](https://docs.google.com/spreadsheets/d/1TNtBJdar2XiVRUFFK_5aTY-zReMA44iqWLXdx6L56HY/edit#gid=0)*に書き込みましょう.
- 質問項目リストを完成させましょう.
* 以下コードを各自でコピペしておいてください.
```
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("../data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
#### 一般線形モデルとは
##### 概要
一般線形モデルとは,統計学のうち,以下の数式(モデル式)を元に考えていくモデルです.
$$Y_i=\beta_1 X_1 +\beta_2 X_2+ \beta_3 X_3 + .... \alpha+\epsilon_i $$
さて,何か複雑そうなモデル式が出てきてしまいましたが,恐れることはありません.少し,簡単な形にしてあげましょう.そうすると,こんな感じに書くことが出来ます.
$$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
このモデル式,何だか見覚えのあるグラフとそっくりだと思います.中学校の時に"一次関数"というのを教わったのを覚えていますでしょうか?一次関数ではこんな数式を使いました.
$$Y=\beta X + \alpha$$
この数式を元に,グラフを書く,ということもやったかと思います.この時,\(\beta\) を傾き,\(\alpha\) を切片という呼び方をしていました.ちなみに,この数式で直線のグラフを書く時には,Xに0を代入した時のポイント(0, \(\alpha\))とXに1を代入したときのポイント(1, \(\beta + \alpha\))を結ぶ直線を引いてあげれば,グラフを作成することができます.
一般線形モデルの一番理解しやすい最初の考え方は,「実際に観察されたデータを元にして,一次関数のような直線を引いてあげよう!」という発想です.ただし,一次関数とちょっと違うのは「全ての点を通らなくてよい」ということです.
##### 誤差
一次関数の場合はその直線上にある全ての点を通ることが前提となっていました.しかし,実際には直線であるので,直線上の2点を通れば,全てその条件を満たす直線を引くことが出来ます.
しかし,一般線形モデルの場合は常に全ての点を通るとは限りません.ベストは全ての点を通ることではありますが,実際にはデータには「誤差」というものが存在します.これは本来得られるべき結果と実際に得られた結果にずれがあることを示しています.
この誤差には大きく分けて以下の3種類あります.
* 測定誤差:実際に何かを計測する時に生じる誤差.大きく分けて以下の2種類がある.
- 系統誤差(システマティック):何らかの要因により,常に生じてしまう誤差.例えば,自動車で運転者が40km/hで走っているつもりであっても,外部から正確なスピードメーターによって調べると38km/hしか出ていない,など.これはメーターが原因で生じる系統(システマティック)誤差である.
- 偶然誤差:何らかの要因により,偶然生じてしまう誤差.例えば,ブレーキをかけたときに60mで普段止まるが,偶然入ったホコリや水分などによって70mで止まってしまうかもしれない.これは偶然入ったホコリや水分による偶然誤差である.
* 計算誤差:数値をどこかで四捨五入したことによって生じる誤差.例えば,1/3を0.333にして計算することによって計算誤差が生じる.
* 統計誤差(標準誤差):母集団からある一部の集団を取り出す時,選ぶ集団によってどの程度数値が異なり得るのかを調べたもの.統計的に異なり得る範囲を推測することができる,
##### 本題に戻って
さて,少し本題に戻りましょう.ちょっと一般線形モデルのモデル式を考えたいと思います.
$$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
改めて,このモデル式を説明したいと思います.ここで,"\(Y_i\)"のことを"応答変数","\(X_1\)"のことを"説明変数"と呼びましょう.文字についている"\(_i\)"は各データによって異なる!という区別をするためについています.ちなみに,"\(Y_i\)"は他にも,被説明変数や非独立変数と呼ばれたりしますし,"\(X_1\)"は独立変数とも呼ばれたりします.
また,\beta は係数,\alpha は切片と呼ばれます.そして,"\(\epsilon_i\)"が一番問題となる誤差です.この誤差は予測されたモデル式である"\(Y_i=\beta_1 X_1 + \alpha\)"からどれだけそのデータの値が離れているかを示しています.
と,言ってもなかなか理解し難いと思うので,一つ試しにやってみましょう.ここでは,「回帰分析」という方法と「t検定」という方法についてお話をしたいと思います.
|検定名 |応答変数 |説明変数 |
|--------|----------|------------------------------|
|回帰分析|数値データ|数値データ(順序データ) |
|t検定 |数値データ|因子データ(ダミー変数,1, 0) |
#### 回帰分析
##### 回帰分析とは
回帰分析とは,応答変数が数値データであり,説明変数も数値データである場合に用いる方法です.例えば,「身長」と「体重」の間の相関関係について分析をする際にも用います.ここでは,今まで授業で使ってきた「主観的幸福度」と「生活満足度」の間に相関関係があるかどうか,以下の順番に沿って考えてみましょう.
この関係はモデル式で表すと,このような形になります.
$$(主観的幸福度)=\beta_1 (生活満足度) + \alpha+\epsilon_i $$
この時,切片である\alpha は生活満足度が0であった時に対応する主観的幸福度を示しています.
##### 仮説を立てる
何はともあれ,統計分析をするときには仮説を立ててあげる必要があります.仮説を立てるときには,「帰無仮説」と「対立仮説」の2つを考える必要があります.
対立仮説は「イイタイコト」,帰無仮説は「イイタイコトではないこと」でした.
ここで主観的幸福度と生活満足度の関係ですので,以下のように設定できます.
* 対立仮説:主観的幸福度と生活満足度の間に相関関係がある.
* 帰無仮説:主観的幸福度と生活満足度の間に相関関係があるとは言えない.
特に,以下では応答変数を主観的幸福度,説明変数を生活満足度とします.
##### 散布図をプロットする
散布図のプロットは他の機能から持ってきてもよいのですが,今回はRStudio上でクリックだけで入れられる方法を紹介します.
その上で,コードを貼り付けて出力することにしましょう.
最初に,`ggplotgui`というパッケージをインストールします.
このインストールは今回だけです.
```
install.packages("ggplotgui", dependencies = T)
```
その後,読み込んであげましょう.
ここのコードはConsole(コンソール)に直接打ち込みます.
```
library(ggplotgui)
ggplot_shiny()
```
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
* "*Data upload*"をクリック
* datasetをコピーする
* "*Paste Data*"にペーストをする
* ggplotタブへ
* "*Type of graph:*"は"*Scatter*",Y-variableは"*SUB_HAP*",X-variableは"*SUB_SAT*"を設定
* "*Show regression line*"にチェックを入れる
* "*Show confidence interval*"にチェックを入れる
* R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする.
-また,コード内の*df*を*dataset*に変える.
```
## You can use the below code to generate the graph.
## Don't forget to replace the 'df' with the name
## of your dataframe
#====================kokokara====================#
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(df, aes(x = SUB_SAT, y = SUB_HAP)) +
geom_point()+
geom_smooth(se = TRUE, method = 'lm') +
theme_bw()
graph
#====================kokomade====================#
## この範囲は必ずチャンク内に入れる..
# If you want the plot to be interactive,
# you need the following package(s):
library("plotly")
ggplotly(graph)
## これを入れると,インタラクティブプロット(双方向性のあるプロット)ができる.
# If you would like to save your graph, you can use:
ggsave('my_graph.pdf', graph, width = 14, height = 14, units = 'cm')
## ここを入れると,pdfファイルとして保存できる.
```
```{r}
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = SUB_SAT, y = SUB_HAP)) +
geom_point()+
geom_smooth(se = TRUE, method = 'lm') +
theme_bw()
graph
```
どうもグラフを見ている限りだと,この2変数間には正の相関関係,すなわち「生活満足度が高ければ高いほど,主観的幸福度が高くなる」という傾向にはありそうです.
ただし,今はグラフを見ているだけなので,果たしてこの傾向が本当にあるのかどうかがわかりません.今度はこの傾向が科学的に認められるのかどうかを考えてみましょう.
##### 回帰分析をやってみる.
さて,今度はRで分析してみましょう.ここでは,2行ほどのコードを書いてもらいます.
```{r}
hapsat_model<-lm(SUB_HAP~SUB_SAT, data = exdataset)
summary(hapsat_model)
```
出力結果について説明しましょう.
```
## Call:
## lm(formula = SUB_HAP ~ SUB_SAT, data = dataset)
```
この行では,分析したモデル式について示しています.簡単に言うと,「生活満足度によって,主観的幸福度は説明できるかどうか試してます...」ということを示しています.
```
## Residuals:
## Min 1Q Median 3Q Max
## -7.8918 -0.6503 -0.0814 0.7289 6.4015
```
ここでは,モデル式からのズレ($\epsilon_i$)である誤差がどの程度あるのかを示しています.ここでは誤差の最小値,第1四分位点,中央値,第3四分位点,最大値を示しています.一般線形モデルではこの誤差が正規分布になっていることを仮定しています.
```
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.59853 0.10176 15.71 <2e-16 ***
## SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
```
ここではその分析結果について示しています.第一に注目すべきはこの項目です.
"Intercept"は切片を示しています.先程のモデル式でいうと,$\alpha$ にあたる部分です.加えて,"SUB_SAT"は生活満足度です.先程のモデル式でいうと,$\beta_1$にあたる部分です."Estimate"は推定値を示しています."Intercept"と交わるところでは$\alpha$に入る具体的な数字を示しています.また,"SUB_SAT"と交わるところでは$\beta_1$に当てはまる数字が入ります.
したがって,この結果はモデル式で書くと,以下のように示すことが出来ます.
$$(主観的幸福度)=0.81036 ×(生活満足度) + 1.59853+\epsilon_i $$
このモデル式は生活満足度が1あがると,主観的幸福度が0.8106ポイント増加すること,そして生活満足度が0の人の主観的幸福度は1.59853であることが推定されています.
ここに出てくるt\ valueはt値を,Pr(>|t|)はp値を示しています.そして,最後のsign.if. codesでは,どのような基準で\*をつけているかを説明しています.この場合,p値が1-0.1の場合は".",0.05-0.01の場合は"\*",0.01-0.001の場合は"\*\*",0.001-0の場合は"\*\*\*",としてつけている,ということが示されています.
統計学の基本的な考え方ではp値が0.05以下,すなわち5%以下である場合には対立仮説を採択することがお約束となっています...が,単純に5%以下であることによって対立仮説を採択することがあってはいけません.
それは以下の理由によります.
* 分野によって10%以上でも有意差を認めることがある.
* 統計的な有意性はデータの量にも依拠するため,単純に評価してよいかどうかは課題がある.
- 心理学系だと「効果量」という議論がある.
```
## Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
## F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
```
続いて,確認したいのはこの2行です."Multiple R-squared"はR2乗(あーるにじょう)値を示しています.ただし,このR2値は決定係数と呼ばれており,回帰式の当てはまり具合を示しています.寄与率とも呼ばれて,この値が1に近ければ近いほどよく説明できているモデル式であると言われます.ただし,R2乗値はこのモデルに組み込まれる説明変数が増えれば増えるほど,より良くなっていきます.そうするといくらでも興味のない変数を入れて重回帰分析(後日説明します)....と,なると決して意味があるモデル式になるとは言えません.
そこで,たくさん変数を入れたことに対するペナルティを加えたのが"Adjusted\ R-squared",調整済みR2乗値と呼ばれるものです.こちらを報告してあげると良いかと思います.
最後の"F-statistic"はF検定と呼ばれるものの結果です.2つの群の「標準偏差」が等しいかどうか,を示しているものであり,「等分散性の分析」に用いられているものです.この結果は,主観的幸福度と生活満足度では分散,すなわちばらつき方が異なっている,ということを示しています.
結果をまとめる時は,こんな感じにまとめておくと良いかと思います.
```
生活満足度1が改善すると,主観的幸福度が0.81改善することが,0.1%水準で示された.(一緒に表を見せると良い.)
```
##### 結果をきれいに表記しよう.
* パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
```{r echo=TRUE}
library(pander)
pander(hapsat_model)
```
* 他にもパッケージhuxtableの中にhuxregという関数があります.
```{r echo=TRUE}
library(huxtable)
huxreg(hapsat_model)
```
* パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.
```{r echo=TRUE}
library(stargazer)
stargazer(hapsat_model, type = "html", align=TRUE, title = "分析結果", out = "hapsatmodel.xls")
```
* 作業フォルダの中に"hapsatmodel.xls"というファイルができていますので,そちらを開いてください.
- 注意画面が出てきますが,「気にせずに開く」を選んでください.
##### t値とは?
$$t値=(期待値)-(平均値)/(標準誤差)$$
```
t値はこんな数式から算出されます.
標準誤差は(標準偏差)/(データ数の平方根)によって計算できることを思い出しておいて下さい.
t値は分子が大きければ,平均値との差が大きいことを示しており,分母が大きければ,標準偏差(分散)が小さく,データ数が十分にあることを示しています.このt値が大きければ大きいほど,帰無仮説を棄却して対立仮説を採択できることを示しています.
一方,p値は帰無仮説が成立していることを前提として,0.05,すなわち5%未満であれば,帰無仮説を棄却するための基準となります.実際に確率的に示すことによって,得られた差異がどの程度珍しいのか,ということを示しています.例えば,p値が0.03,すなわち3%であれば,帰無仮説が正しいとした時に今得られた結果は3%でしか観察できないような珍しいことが起こっていることを示しています.こんなに珍しいことが起こったのは,その帰無仮説が正しくないからであり対立仮説を選ぼう!という論理のもとに対立仮説を採択することになります.
ここでは,t値とp値の計算方法については別書に譲ることとして,ざっくりとした理解で先に行きましょう.
```
### 今日のTake Home Messages
#### 回帰分析
* 回帰分析:
- $$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
- をモデル式として,"\(Y_i\)"および"\(X_i\)"のいずれもが数値データの場合に用いる.
- 対立仮説:"説明変数"が変化するにつれて,"応答変数"も変化する
- 帰無仮説:"説明変数"が変化するにつれて,"応答変数"も変化するとはいえない.
- Rの関数では以下の形式を用いる.
```
# モデルを作る
オブジェクト <- lm(応答変数 ~ 説明変数, data = データセットの名前)
# 結果を出力する
summary(オブジェクト)
```
```{r}
```
### Rでデータを扱う時に注意すべきこと
* 必ず数字/文字は半角で入力する.
* 日本語は使わずにローマ字を使用する.
* コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
- メモする内容は全角でもよい.
* ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
- 半角英数字だけにする.
* 慌てずに落ち着いて操作すれば,決して難しくない.
- 1つずつ落ち着いて作業することを心がける.
* 「わからない」ことを恐れない
- 周りの友人に聞いたり,教員に確認したりしよう.
* 文字化け対策に**[こちら](https://docs.google.com/document/d/1CYF6LeFeGV9dTWHGuznkO0Tm4RnhAu2KatdSqFn7bmU/edit)** のp8以降を確認して設定しよう.
# 演習問題
## 問題 {.tabset .tabset-fade}
### 問題
#### 演習問題:
* 次回までにご自身で分析してみたいテーマ(回帰分析1つ)+(t検定1つ)+(分散分析1つ)の帰無仮説と対立仮説を考えてきてください.
##### 演習問題1
"SUB_SLP"は睡眠満足度として,以下の質問項目を尋ねたものである.
あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか?
これについて,以下の2つの分析を実施せよ.
* 主観的幸福度と睡眠満足度の相関関係を分析せよ.
* 生活満足度と睡眠満足度の相関関係を分析せよ.
##### 演習問題2
各自でコード表を読み,好きなデータ(数値データ)2種類を選んだ上で,それぞれと主観的幸福度について回帰分析を実施し,
##### 演習問題3
"CHI"は子どもの有無を尋ねる項目である.
あなたはお子さんがいらっしゃいますか?
これについて,以下の3つの分析を実施せよ.また,それぞれについてグラフも作成せよ.
* 子の有無による主観的幸福度の差を分析せよ.
* 子の有無による生活満足度の差を分析せよ.
* 子の有無による睡眠満足度の差を分析せよ.
##### 演習問題4
各自でコード表を読み,好きなデータ(1,0の因子データ)を選んだ上で,それぞれと主観的幸福度について回帰分析を実施し,それぞれについてjpeg形式のグラフおよびExcel形式のファイルを出力せよ.
#### リアクションペーパー:
* 授業で学んだことおよび感想を下記リンクからお答えください.
**[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)**
### ヒント
* パッケージdplyrの関数filterを使います.
* ある列の中にあるデータの名前を個別に指定する時には""(ダブルクォーテーション)で囲います.
```{r}
```
# データの概要
### データ概要
ダウンロードは**[コチラ](https://akrgt.github.io/2019DA/data/exdataset.csv)**から
```{r}
library(DT)
DT::datatable(exdataset)
```
### 変数名リスト
#### 主観的指標
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ |
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
#### 独裁者ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_提案者
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_応答者
図を見て下さい.
あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 信頼ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 自然関連
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 監視
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 死後
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | -------------------------------------- | --------------------------------- |
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 性行動
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
| | | | |
#### フェイスシート
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県|
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |